Shota Nakamura
2023-02-24 Computer Vision Labチーム
はじめに
8/8から6週間の就業型インターンに参加しました、中村祥大と申します。私は東京工業大学大学院に所属する修士1年で、現在は深層学習の高速化に関する研究をしています。
今回のインターンではComputer Vision LabのOCRユニットに所属し、その中でも特に、テキスト認識タスクの性能向上に関連するテーマに取り組みました。本レポートではその成果について報告します。
背景
今回のインターンで私はテキスト認識に関連するタスクに取り組みました。テキスト認識とは、与えられた画像に書かれている文字列は何であるかを認識する処理です。
近年、深層学習モデルを用いたテキスト認識が台頭しています。しかしながら、そのようなアプローチには、学習時に登場していないテキストを含む画像に対する認識精度が低下するという問題(Vocabulary Reliance)が存在します。以降ではテキストの集合のことを「語彙」、「学習に用いる語彙」のことをIn Voc、「学習に用いておらず、実際の推論時に登場する語彙」のことをOut Vocと呼びます。実際のユースケースで登場しうるOut Vocの例として、「ana